大模型评测体系司南OpenCompass2.0发布,年度大模型榜单揭晓,司南合作伙伴计划启动
The following article is from 上海人工智能实验室 Author Shanghai AI Lab
1月30日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。OpenCompass2.0全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,客观中立地为大模型技术创新提供坚实的技术支撑。
OpenCompass2.0同时揭晓了2023年度大模型公开评测榜单,评测结果显示,GPT-4 Turbo在各项评测中均获最佳表现,智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0紧随其后;大语言模型整体能力仍有较大提升空间,复杂推理相关能力仍是短板;中文场景下国内的模型更具优势,中文闭源大模型接近GPT-4 Turbo的水平,开源模型进步很快,以较小的体量达到较高性能水平,表现出较大的发展潜力。
司南OpenCompass2.0评测体系官网:
https://opencompass.org.cn/GitHub主页:https://github.com/open-compass/OpenCompass/
年度榜单:
GPT-4稳坐头把交椅,开源模型未来可期
大语言模型整体能力仍有较大提升空间:由于采用了更加准确的循环评测策略,OpenCompass2.0实现了对模型真实能力分析。在百分制的客观评测基准中,GPT-4 Turbo也仅达到61.8分的及格水平。此结果显示,复杂推理仍然是大模型面临的重要难题,需要进一步的技术创新来攻克。
闭源商业模型主客观能力均衡:在综合性客观评测中,智谱清言GLM-4、阿里巴巴Qwen-Max和百度文心一言4.0也获得了不错的成绩,反映了这些模型具有较为均衡和全面的性能。上述模型在语言和知识等基础能力维度上可以比肩GPT-4 Turbo。
推理、数学、代码、智能体是国内大模型的短板:GPT-4 Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。国内大模型要整体赶超GPT-4 Turbo等国际顶尖的大模型,在复杂推理、可靠地解决复杂问题等方面,仍需下大功夫。
主客观性能需综合参考:不少开源模型在客观性能和主观性能方面和API模型仍存在相当程度的差距,这说明整个社区不仅需要提升客观性能夯实能力基础,更需要在人类偏好对齐上下足功夫。合理科学地使用评测基准,对模型能力进行细致对比和分析,是模型厂商不断提升模型能力的不二法门。
国内模型在中文场景下相比海外模型具有性能优势:在中文语言理解、中文知识和中文创作上,国内商业模型相比 GPT-4 Turbo 具有极强的竞争力,甚至部分模型实现了单个维度上对 GPT-4 Turbo 的超越。
中文闭源大语言模型接近GPT-4 Turbo水平:不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,阿里巴巴Qwen-Max、智谱清言 GLM-4、百度文心4.0都取得了优秀的成绩;期待随着更多厂商的新模型发布,赶超GPT-4 Turbo迈出更坚实的步伐。
开源社区未来可期:开源社区的Yi-34B-Chat、InternLM2-Chat-20B在综合性对话体验上达到了所有主流开源模型的第一梯度,并以中轻量级的参数量、接近商业闭源模型的性能,为学界和业界提供了良好的应用基础。
“铁三角”支撑大模型能力评测体系
CompassKit:大模型评测全栈工具链
CompassKit中包含:
• OpenCompass升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。
• VLMEvalKit多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。
• Code-Evaluator代码评测服务工具:提供基于docker的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。
• MixtralKit MoE模型入门工具:为MoE模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。
全面评测维度,高质量评测基准
• MathBench:多知识点全学段的数学能力评测基准
面向大语言模型数学能力评估的评测基准,题目覆盖从基础计算到小学、中学、高中和大学教育阶段的全部范围,使用自研的循环评估方法来真实地反映模型的实际能力。
• T-Eval:大模型细粒度工具能力评测基准
通过将任务细分为多个子维度,如规划、推理、检索、理解、遵循指令和审查等,提供更细致的视角来评估LLM的工具调用能力。它设计了专门的评测指标,全面度量工具调用性能,并为改进模型提供指导。
• CIBench:代码解释器能力评测基准
通过构造丰富的任务场景和软件库的多样性,以及采用模拟真实用户场景的多轮对话方式,全面评估大模型在意图识别、代码撰写、工具调用、代码分析与推理等方面的能力。
• CreationBench: 多场景中文创作能力评测基准
通过模型对战、打分和细粒度评分等多种评估方式,实时反映大语言模型的创作能力。
• CriticBench:多维度的LLM反思能力评估基准
通过提供全面的反思形式、丰富的场景数据、多样的反思任务、海量的数据集规模和高质量的参考反思,提升了LLM反思能力评估的准确性和全面性,推动LLM的自我改进和稳健性。
• F-Eval:大模型基础能力评测基准
包含中文和英文两种语言,考察了表达能力、常识能力和逻辑能力三个主要维度和15个子维度。
以评测促发展,司南伙伴计划启动
法律领域:联合南京大学推出 LawBench 评测基准,全面评估大模型在法律任务中的应用能力。
金融领域:和东方财富等行业伙伴共同推出全场景金融开源测评数据集 OpenFinData,涵盖从基础数据到专业金融场景的广泛层次。
医疗领域:与上海交通大学医学院附属瑞金医院、上海交通大学医学院附属新华医院、四川大学华西医院、广州实验室等医疗机构和企业共同推出面向中文医疗大语言模型的评测系统 MedBench,覆盖医学语言理解、生成、知识问答、推理及安全和伦理等方面。
网络安全领域:与腾讯朱雀实验室、腾讯安全科恩实验室、清华大学以及香港理工大学等研究团队共同打造首个网络安全大模型评测平台 SecBench,专注于评估大模型在网络安全领域的应用能力。
司南能力体系合作伙伴:共同建立面向未来大模型技术演进的能力体系,构建通用大模型能力评价维度,参与大模型相关重要标准和规范的制定。
司南行业评测基准合作伙伴: 共同建立行业大模型评测集,共同发布行业榜单,为行业大模型能力发展提供方向指引。
司南工具链合作伙伴:诚邀各类大模型及应用相关企业,基于OpenCompass工具链体系共同研发高质量评测工具链,面向大语言模型、多模态大模型等方向,建设全面科学高效的自动化评测服务,共同提高模型和应用的研发效率。
2024-01-29
2024-01-26